以語言模型評估學習者文句修改前後之流暢度(Using language model to assess the fluency of learners sentences edited by teachers)[In Chinese]

نویسندگان

  • Guan-Ying Pu
  • Po-Lin Chen
  • Shih-Hung Wu
چکیده

隨著科技的發展,現在 3C 產品可說是非常的普遍,也因為如此現在非常多的孩子從小就 接觸電腦、手機、平板等 3C 產品,使得現在學生更有可能以電腦作為寫作文的工具。雖 然教育政策將作文納入考試評分項目,使得學生跟家長再度重視寫作能力,但是受限於 教學時數,可以練習寫作的時間實在是不足以將那些寫作能力較弱的學生作有效提升。 因此我們認為未來可以藉由自動化的作文教學系統幫助學生在家自學作文。而我們所開 發作文教學之句子流暢度偵測系統,經由系統回傳的診斷結果,幫助學生提升詞句組合 的理解能力以寫出較順暢的句子,藉此提升他們作文的分數。本系統依賴 N-gram 的語言 模型[1],其特色是計算字詞間組合的機率,機率越高字詞組合的正確性就越高句子也就 越順暢,然而語言模型其效果相當依賴大型的訓練語料,這是語言模型仍待克服的問題, 而且如果訓練語料的性質跟要測試的文章性質越不相關,效果就會越差,因此語料庫需 要根據測試文章做改變。

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

以語言模型判斷學習者文句流暢度(Analyzing Learners 'Writing Fluency Based on Language Model)[In Chinese]

由於現代科技以及 3C 產品的普及,使得孩子頻繁的接觸電視、網路、手機...等,因此 容易缺乏與人之間互動、溝通以及情感的表達,相對的,學生寫的作文常常是以流水帳 交代經過,有的學校甚至不考作文,但隨著教育政策的變動,國中教育會考加入了作文 評量的項目,使的作文再度受到學生及家長的重視。可是受限於學校教學時數,作文較 弱的學生容易缺少補救的機會。我們認為未來自學作文以及在家練習,可以藉由自動化 的作文教學系統輔助。而本系統開發作文教學系統之句子流暢度偵測,經由系統回饋的 診斷結果可以讓學生對詞句組合的理解力有所提升,幫助學生寫出較流暢的句子,藉此 提高他們的作文分數。系統所依賴的 N-gram 語言模型,它的特性是計算字詞間組合的 機率,機率越高的話字詞組合的正確性越高也就是越流暢,而語言模型效果相當依賴大 型的訓練語料,這是語言模型然能待克服的缺點,例如資料稀疏(Data spar...

متن کامل

具相關資訊回饋能力之貝氏混合式機率檢索模型 (Using Relevance Feedback in Bayesian Probabilistic Mixture Retrieval Model) [In Chinese]

摘要 本篇論文提出新穎之相關回饋(Relevance Feedback)方法並應用於混合式機率檢索系統(Mixture Probability Model)以提昇檢索效能。相關資訊回饋法以往最常用的技術是查詢句擴充法(Query Expansion),本回饋方式 是架構在以混合式機率模型為主的檢索系統上,為了加強檢索效能,我們是在查詢句擴充法中,強調不同查詢 詞的重要性,所以提出查詢詞權重重調整(Query Term Reweighting)技術;此外,我們也利用檢索出來的前 N 名文件和資料庫的每份文件個別重調成新的文件語言模型,以提供較好的文件語言模型提供檢索時使用。在查 詢字權重之重調整部分以最佳相似度(Maximum Likelihood)為估測準則,而文件語言模型之調整部分先後以 最佳相似度與最佳事後機率(Maximum a Posteriori)為估測準則供我們對照比較,...

متن کامل

基於半監督式學習之廣播節目語音逐字稿自動轉寫系統 (Automatic Transcription of Broadcast Radio Speech Based on Quality Estimation-Guided Semi-Supervised Training) [In Chinese]

廣播節目製作時通常只有收錄語音訊號,沒有保留相對應的節目內容詮釋資料 (metadata),導致節目播出後,很難檢索節目內容,或是加以組織再利用。針對此問題, 常用的方法是以語音辨認器,自動轉寫廣播節目內容,產生語音逐字稿,但是目前缺乏 已標記好的廣播語音語料庫,因此無法訓練出適合轉寫廣播節目的語音辨識器。所以在 本論文中,我們探討如何同時使用語音訊號特徵參數、辨認器辨認結果與語言模型參數, 訓練一語音品質估算(Quality Estimation,QE)器,取代傳統只依賴語音辨認器的信心值 估算(Confidence Measure),從源源不絕,但未標記的大量廣播語料中,挑選適合訓練 語音辨認器的語料,進行半監督式聲學模型訓練,以提升轉寫廣播語料逐字稿的效能。 實驗中以一不佳錄音品質 NER-set1 與一優良 NER-set2 之廣播節目測試語料集,測試種 子語音辨認器與經半監...

متن کامل

利用聲學與文脈分析於多語語音辨識單元之產生 (Generation of Phonetic Units for Multilingual Speech Recognition Based on Acoustic and Contextual Analysis) [In Chinese]

摘要 由於全球化趨勢之盛行,多語語音常出現於會議紀錄及一般對話等方面。對於會議紀錄及對話系統而 言,多語語音自動辨識日顯重要。在多語語音自動辨識中,辨識單元集之定義及選取,將影響辨識之效率 及效能。本論文針對中英文利用 IPA 定義之多語語音辨識單元集,考慮前後文相關之三連音模型,並進一 步透過對聲學相似度與前後文脈分析,決定一組精簡有效的多語辨識單元。在相似度矩陣分析中,首先我 們利用事後機率統計,建立聲學相似度矩陣,然後,基於發音共聲現象的考量,分析語音發音上之相似度。 本論文更引入語言超空間相似度之觀念,計算三連音辨識單元前後文脈之關係,建立語言超空間相似度矩 陣。最後利用資料融合技術,合併聲學相似度矩陣和語言超空間相似度矩陣,以計算三連音辨識單元間之 距離,而後利用向量量化群集方法合併相似性高之三連音辨識單元,建立一個有效的多語語音辨識單元 集。本論文以 EAT 中英雙語語料...

متن کامل

整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]

鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016